放射线学使用定量医学成像特征来预测临床结果。目前,在新的临床应用中,必须通过启发式试验和纠正过程手动完成各种可用选项的最佳放射组方法。在这项研究中,我们提出了一个框架,以自动优化每个应用程序的放射线工作流程的构建。为此,我们将放射线学作为模块化工作流程,并为每个组件包含大量的常见算法。为了优化每个应用程序的工作流程,我们使用随机搜索和结合使用自动化机器学习。我们在十二个不同的临床应用中评估我们的方法,从而在曲线下导致以下区域:1)脂肪肉瘤(0.83); 2)脱粘型纤维瘤病(0.82); 3)原发性肝肿瘤(0.80); 4)胃肠道肿瘤(0.77); 5)结直肠肝转移(0.61); 6)黑色素瘤转移(0.45); 7)肝细胞癌(0.75); 8)肠系膜纤维化(0.80); 9)前列腺癌(0.72); 10)神经胶质瘤(0.71); 11)阿尔茨海默氏病(0.87);和12)头颈癌(0.84)。我们表明,我们的框架具有比较人类专家的竞争性能,优于放射线基线,并且表现相似或优于贝叶斯优化和更高级的合奏方法。最后,我们的方法完全自动优化了放射线工作流的构建,从而简化了在新应用程序中对放射线生物标志物的搜索。为了促进可重复性和未来的研究,我们公开发布了六个数据集,框架的软件实施以及重现这项研究的代码。
translated by 谷歌翻译
One of the weaknesses of classical (fuzzy) rough sets is their sensitivity to noise, which is particularly undesirable for machine learning applications. One approach to solve this issue is by making use of fuzzy quantifiers, as done by the vaguely quantified fuzzy rough set (VQFRS) model. While this idea is intuitive, the VQFRS model suffers from both theoretical flaws as well as from suboptimal performance in applications. In this paper, we improve on VQFRS by introducing fuzzy quantifier-based fuzzy rough sets (FQFRS), an intuitive generalization of fuzzy rough sets that makes use of general unary and binary quantification models. We show how several existing models fit in this generalization as well as how it inspires novel ones. Several binary quantification models are proposed to be used with FQFRS. We conduct a theoretical study of their properties, and investigate their potential by applying them to classification problems. In particular, we highlight Yager's Weighted Implication-based (YWI) binary quantification model, which induces a fuzzy rough set model that is both a significant improvement on VQFRS, as well as a worthy competitor to the popular ordered weighted averaging based fuzzy rough set (OWAFRS) model.
translated by 谷歌翻译
We combine the metrics of distance and isolation to develop the \textit{Analytic Isolation and Distance-based Anomaly (AIDA) detection algorithm}. AIDA is the first distance-based method that does not rely on the concept of nearest-neighbours, making it a parameter-free model. Differently from the prevailing literature, in which the isolation metric is always computed via simulations, we show that AIDA admits an analytical expression for the outlier score, providing new insights into the isolation metric. Additionally, we present an anomaly explanation method based on AIDA, the \textit{Tempered Isolation-based eXplanation (TIX)} algorithm, which finds the most relevant outlier features even in data sets with hundreds of dimensions. We test both algorithms on synthetic and empirical data: we show that AIDA is competitive when compared to other state-of-the-art methods, and it is superior in finding outliers hidden in multidimensional feature subspaces. Finally, we illustrate how the TIX algorithm is able to find outliers in multidimensional feature subspaces, and use these explanations to analyze common benchmarks used in anomaly detection.
translated by 谷歌翻译
通过填写数据集中的缺失值,插入允许这些数据集与无法自行处理缺失值的算法一起使用。但是,缺少的价值原则上可能会贡献通过插补而丢失的有用信息。缺失的指示方法可以与归档的结合使用,而是将此信息表示为数据集的一部分。有几个理论上的考虑因素为什么缺失指导者可能会或可能没有好处,但是在现实生活中没有任何大规模实践实验来测试此问题以进行机器学习预测。我们根据二十个现实生活数据集对三种归纳策略和一系列不同的分类算法进行此实验。我们发现,在这些数据集上,缺失指标通常会提高分类性能。此外,我们没有发现大多数算法的证据表明,最近的邻居和迭代插补比简单的平均/模式插补带来更好的性能。因此,我们建议使用具有平均/模式归档的缺失指标作为安全的默认值,需要将决策树用于防止过度拟合。在后续实验中,我们确定每个分类器的属性特异性缺失阈值,在该实验中,缺失指标更有可能增加分类性能,并观察到这些阈值的分类要比数值属性要低得多。最后,我们认为,数值属性的插补的平均值可能会保留一些信息中的某些信息,并且我们表明,在没有缺失的指示器的情况下,将平均插入量应用于单热编码的分类属性而不是,而不是有用模式插补。
translated by 谷歌翻译
在本文中,我们提出了一种基于深度学习的数值方案,用于强烈耦合FBSDE,这是由随机控制引起的。这是对深度BSDE方法的修改,其中向后方程的初始值不是一个免费参数,并且新的损失函数是控制问题的成本的加权总和,而差异项与与该的差异相吻合终端条件下的平均误差。我们通过一个数值示例表明,经典深度BSDE方法的直接扩展为FBSDE,失败了简单的线性季度控制问题,并激励新方法为何工作。在定期和有限性的假设上,对时间连续和时间离散控制问题的确切控制,我们为我们的方法提供了错误分析。我们从经验上表明,该方法收敛于三个不同的问题,一个方法是直接扩展Deep BSDE方法的问题。
translated by 谷歌翻译
当在条件属性上以某种方式相关的实例时,发生预测问题的不一致不会遵循决策属性的相同关系。例如,在具有单调性约束的序数分类中,当在条件属性上占据另一个实例的实例已经分配给更糟糕的决策类时,会发生它。它通常出现在由不完全知识(缺少属性)或通过数据生成期间发生的随机效果引起的数据的扰动(在决策属性值的评估中的不稳定性)引起的数据中的扰动。可以使用符号方法如粗糙集理论等象征方法处理和涉及优化方法的统计/机器学习方法,处理相对于清晰的预购关系(表达实例之间的差异或实例之间的无漏能格)不一致。模糊粗糙集也可以被视为对模糊关系处理不一致的象征性方法。在本文中,我们介绍了一种新的机器学习方法,用于对模糊预订关系进行不一致处理。新颖的方法是由用于清脆关系的现有机器学习方法的激励。我们为IT提供统计基础,并开发可用于消除不一致的优化程序。本文还证明了重要的财产,并载有这些程序的教学例子。
translated by 谷歌翻译
尽管近期因因果推断领域的进展,迄今为止没有关于从观察数据的收集治疗效应估算的方法。对临床实践的结果是,当缺乏随机试验的结果时,没有指导在真实情景中似乎有效的指导。本文提出了一种务实的方法,以获得从观察性研究的治疗效果的初步但稳健地估算,为前线临床医生提供对其治疗策略的信心程度。我们的研究设计适用于一个公开问题,估算Covid-19密集护理患者的拳击机动的治疗效果。
translated by 谷歌翻译
我们为五个数据描述符优化的一级分类提供了彻底处理一级分类:支持向量机(SVM),最近的邻居距离(NND),局部最近的邻居距离(LNND),本地离群因子(LOF)和平均局部接近性(ALP)。 SVM和LOF的超参数必须通过交叉验证进行优化,而NND,LNND和ALP允许有效的保留验证形式,并重新使用单个最近的近近地查询。我们通过从50个数据集中提取的246个分类问题来评估超参数优化的效果。从一系列优化算法中,最近的Malherbe-Powell提案最有效地优化了所有数据描述符的超参数。我们计算了测试AUROC的增加以及过度拟合的量,这是高参数评估数量的函数。经过50次评估,ALP和SVM显着胜过LOF,NND和LNND,LOF和NND的表现均优于LNND。 ALP和SVM的性能是可比的,但是ALP可以更有效地优化ALP,因此构成了一个不错的默认选择。另外,使用验证AUROC作为ALP或SVM之间的选择标准可获得最佳的总体结果,而NND是计算要求最少的选项。因此,我们最终以三种选择之间的明确权衡取舍,从而允许从业者做出明智的决定。
translated by 谷歌翻译